肖仰华:Sora只是开始,AI或让人类文明进入“盘整期”
在人工智能的浩瀚世界中,Sora也只是冰山一角。
当AI技术“高歌猛进”,当人们为AI的无限潜能感到惊叹,更加深远的思考也随之而来:人类文明或许将因为AI迎来一段“盘整期”。
当下,科技与生活的融合程度前所未有地增强,人类的社会经济结构乃至伦理标准是否会迎来巨变?复旦大学计算机学院肖仰华教授分享了Sora“引爆”的多模态大模型技术浪潮将怎样影响社会变革,深入思考在与AI的共舞中,人类如何才能引领,而非被“领舞”。
关于AI将如何影响人类社会经济发展,小管推出“智见AI”专题系列,将继续邀请商务智能、平台创新、信息技术商业价值等领域的专家学者和业内资深人士,从产业应用、教育、科研等多角度、多领域分享前沿视角。
肖仰华
复旦大学计算机科学技术学院教授、博士生导师,上海市数据科学重点实验室主任,长期从事大数据、知识图谱研究。
1
AI正在“造世界”
而人类是唯一尺度
● Sora绝不仅仅是视频生成工具,它本质上是现实世界的模拟器,能够对物理世界、人类社会以及人与世界的复杂关系进行逼真模拟与生成。
早在ChatGPT诞生后不久,AI专家们就预判了大模型技术势必要从单一的文本模态向多模态发展的基本趋势。Sora的出现代表了文生视频、视频编辑与生成的最新进展,某种意义上可谓“水到渠成”。
但Sora的能力仍是出乎意料的。生成视频在长度、质量以及可控性等方面的“碾压性”呈现只是表面,从深层次来看,Sora绝不仅仅是视频生成工具,它本质上是现实世界的模拟器,能够对物理世界、人类社会以及人与世界的复杂关系进行逼真模拟与生成。
一直以来,计算机领域对于复杂系统的模拟就是个难题,数字孪生、游戏引擎、虚拟现实、数字仿真、电影制作等领域都涉及对现实世界的复杂系统模拟。可以说,Sora的诞生宣告了人工智能在对现实世界的模拟方面能力达到了前所未有的水平,对传统相关工具形成了降维打击态势。
当然,我们也不得不承认,Sora对物理世界的模拟仍存在一些局限。例如老太太吹灭蜡烛时,蜡烛“吹而不灭”,违背了现实世界的物理常识。又如,在一则中国舞龙视频里出现的汉字多属于编造的错字等。这些问题从根本上来讲可以归结于高质量、高精度数据的缺失,或者是相应物理场景的数据稀缺。但相信只要建立合理的诊断与发现机制,很快就可以通过增强长尾场景的样本供给,增强合成数据,以解决相应问题。
Sora的重大意义在于宣告了AGI技术路线在世界模拟这一能力上已然走通,这是具有战略意义的事件,剩下的“细枝末节”提升与完善总体而言属于战术层面。
对于物理世界的模拟难点在于要符合现实世界的物理规律或人类社会的文化习俗。Sora基本解决了这方面问题,而且能够在更大时空范围内解决。比如在“一个时尚的女子行走在东京街头”这个视频中,揭示了人类的物种生物特征,展示了人类文化的基本形态,展现了人类行走的形态,暗含了地球的重力状态,呈现了丰富的人文环境,暗示了丰富多彩的人与世界的复杂关系……在一个1分钟视频所展示的世界里,所包含的物理环境和人文环境的复杂度是惊人的。
Sora能够做到如此逼真的模拟,完全吻合物理规律、文化习俗、生活常识,各种对象与要素之间的空间关系、时序关系也合情合理。更为难得的是,即便在一些想象场景里,所生成的“想象”视频也合乎人类的想象逻辑,而非随机乱象。Sora生成视频的质地之精良,给人极为强烈的感觉与认知冲击,完全达到了电影行业的最高水平,可以预见,影视制作行业的发展形态必被重塑。
人人都能创作的时代即将到来。Sora的大规模应用将会极大地降低视频创造、内容创作的专业门槛。内容生成的速度、质量、效率都会前所未有地提高,文化娱乐行业的井喷式发展或许将成为现实。在未来,只要有足够创意并能用自然语言表达自己的创作脚本,小学生也可以制作出属于自己的影视作品。
但是值得注意的是,创造过程的另一个必要环节在于评价。要符合人类的真善美标准,仍然需要以人类的尺度与标准进行检视。人是万物的尺度,在AI时代仍然适用。对于AI生成内容,人类是唯一合格的评价者,人是AI的造物主,也是AI的尺度。
2
超级认知能力
将刷新人类创造力的边界
AI的建模能力可以视作其对世界的“理解”能力。“理解”一词暗含了存在这个行为的主体,在全部人类历史上,理解的主体是人,但如果不承认机器作为主体地位的话,便谈不上所谓的机器“理解”。
人类理解世界的结果也是为了表达世界,创造新的世界。从这个意义来讲,当机器能像人类一样重建某个概念的实例(比如“在东京街头行走的时尚女性”),便可被视作具备一定的理解能力。
对机器而言,精准建模就是“理解”世界的基本方式。Sora借助数据驱动方式取得了对现实世界的惊人建模与模拟能力,这种能力甚至远超人类对世界的认知能力,机器对于世界的建模或认知可能比人类更接近世界本原之真相,机器对于世界认知能力将显著超越人类个体。
人类的认知总体而言是线性的、有限的、简单的。在复杂决策时,人能同时考虑的决策变量是十分有限的,所谓的抓大放小、抓住主要矛盾的决策方式,本质上都是人类认知能力不足情况下的妥协之计。然而,AI却可以在数以百万计、千万计的决策变量下进行决策。
随着人工智能的进一步发展,机器的感知维度也更加多元。机器所感知的范围远远超过人类,比如高清摄像头可以将远在几公里范围之外的景象看得清清楚楚。机器的这类超级认知能力仍然有待我们深入研究,用好机器的这种超级认知能力将给人类发展创造全新机遇。
一定程度的自主学习,人类先验知识的合理褪除,是成就Sora惊人效果的关键。事实上,人工智能最近几年的发展一而再、再而三地说明,人类专家越少的干预反而越能产生好的模型效果。自然语言处理领域曾经发生过每开除一个语言学专家,机器翻译系统的效果就提升几点的尴尬事实——这样的故事也延续到了大模型时代。
人类对物理世界、人类社会皓首穷经所积累的全部知识,在发展机器智能面前似乎显得毫无价值,甚至起着负作用。人类对于发展机器智能的真正价值似乎只在于设定一个认知世界先验载体(Transformer等模型架构),准备好训练素材(高质量训练数据),使用大规模算力进行训练。想想人类社会代际间的经验与知识传承,我们这代人的知识与经验又有多少会被我们的下一代所认可而继承呢?
Sora也在刷新我们对于人类创造能力的理解。从AI实现视角来看,人类创造的本质或许就是在更大的内容或者理论生成空间中进行合理选择。ChatGPT和Sora这一类大模型在海量数据的喂养下,对现实世界进行了压缩表达,进而能以较低的信息损失度还原世界本原。
在大模型里的生成过程可以视作是在更大语义空间上进行高效的内容枚举或检索,这个语义空间可能比人类所能理解的语义空间大得多,这也将帮助人类拓展想象空间,提升人类的创造力。
3
深融实体经济,启发学科发展
AI能力的每一次进步,给人类社会带来的既是重大机遇,也是重大挑战。从应用层面上看,Sora背后的技术绝不会停留在影视制作,具有重大商业价值的无人驾驶或许也将面临一次重大机遇。
无人驾驶离不开无人驾驶汽车的感知设备(包括雷达和摄像头),对汽车行驶路况和周边环境进行实时感知和建模,而借助海量的驾车数据、交通摄像头数据,Sora从原理上有可能在无人驾驶场景对汽车行驶环境进行高精度模拟和建模。一旦能在无人驾驶形成应用,无疑会给大模型产业注入全新推动力。
同时,Sora对现实世界的建模与模拟能力,相信很快就会在具有更高价值、更为广阔的场景中取得应用。例如,工业制造、游戏引擎、数字孪生、教学仿真以及元宇宙等,都将从Sora背后的生成式世界模拟能力中受益。
工业制造需要大量专业性极强的仿真和模拟,才能对设备运行进行诊断与预测。借助传统工业机理模型的样本合成,再借助Transformer架构一个面向特定工业场景的Sora模拟器,从而极大提升工业场景模拟能力的泛化性,似乎是一个可行的技术路线。Sora背后的技术与传统行业的深度融合将进一步释放生成式AI的产业价值,进一步推动AI与实体经济的深度融合,也有利于AI技术自身的进一步迭代演进。
未来的科学发现也将从Sora的进展中受益良多。Sora的基本启发在于数据的充分训练后,可以遵循数据背后所蕴含的基本原理进行建模。Sora视频生成中所呈现的多是物理规律、社会规律。科学认知世界有着不同的侧面,细分为不同的学科,我们是否可以想象借助AI对其他学科,比如化学、生物等进行类似的数据驱动的学习?
成就Sora的技术原理迁移到其他学科是可能的,因为本质上所有学科基本都是表达各类实体、概念的时空规律、因果规律。Sora至少已经向我们展示了从视频数据学习物理和社会相关的时空规律、因果规律的可能性。一旦能建模某个学科的规律,进而能够生成某个学科的现象,AI就一定能成为助推该学科发展的利器。
4
“打鸡血”的同时,
警惕AI无孔不入
从长远来看,AI也可能带来一些潜在的社会问题。“人人皆可创造”看似将带来所谓“AI平权”的美好未来,但也意味着由此产生的艺术作品总量可能远超出生命的长度。
审美对象的廉价与泛滥或造成人类审美情趣的倒退和体验欲望的消失。天天过生日,生日的惊喜就会丧失,美之为美或许正在于稀缺性。每天“打鸡血”,灵魂恐怕也会渐渐麻木到“打哈欠”,Sora等直击人类体验的AI技术恐将进一步放大人类的“无意义感”。
生活中如果时刻都被AI赋能,恐将加速人类生存意义的毁灭。无孔不入的AI应用,不加节制的AI滥用,让“每时每刻”都是“高光时刻”会从根本上毁灭高光时刻对于人生的意义。日常生活的“无意义”的最大意义,或许就在于成就那片刻的重大“意义”。AI的应用应该给人们日常生活的发呆与无聊留有余地,要为人类在未来AI时代的快速发展留下其在婴童期田园漫步的美好回忆。
伴随通用人工智能技术的进一步发展,人类文明或许将进入一个“乱糟糟”的盘整期,其基本特征是“剪不断,理还乱”。“剪不断”的是难以割舍的人工智能给我们带来的先进生产力,以及随之而来的巨大社会福利。“理还乱”的是AI作为一种新型智能体,盲目插足人类的伦理道德与情感事物,从而搅乱人类的精神世界。
在AI技术之前,人类的精神世界百分百体现的是人类自身的意志。而Sora在人类有限提示下完成的视频生成,内容却已经不是人类意志的完整体现。因为同一段提示,不同的AI工具,甚至同一个工具的不同版本或不同轮次,生成结果都会有差异,这个差异所在就是机器的“意志”体现。
当AI生成以假乱真,人类的感觉和知觉系统已经无法判断真伪。现实世界和虚拟世界的边界日益模糊,将造成人类感知与认知功能紊乱与障碍。一个人类文明盘整期的到来似乎是必然的,在这个盘整期我们需要重新划定AI应用的边界,建立AI应用的准则。
AI发展具有时代必然性,是先进生产力的代表。我们应该以积极心态拥抱AI技术浪潮的到来,同时做好AI发展所引发的社会变革的应对与准备工作。
很多人认为AI是平权的机会,但如果不加以合理干预和监管,AI更可能成为集权的利器。人类在科幻电影中不止一次表达“超级英雄”很容易被超能力反噬的担忧,当AI被视为人类发展的“超能力”,如果不加以合理干预和监管,人类同样会被这种能力反噬。
没有对于AI的积极干预、引导与规范,AI有可能成为人类社会发展“不可承受之重”。所以,人必须也终将成为AI的尺度,AI的发展只能以人类的福祉为唯一依据与标准。
* 视频及部分图片来源于OpenAI
当Sora让人类幻想更“真实”,未来的科幻会怎样大小模型协同,拥抱“千行百业”的应用场景
拥抱AIGC,“量体裁衣”驱动企业智能数字化
AIGC等新技术如何改变消费的场景与形式?AI赋能,每一个人都会成为“超级个体”
ChatGPT狂飙背后的危与机
众声喧哗时,我们看到了不一样的ChatGPT观察
来源 | 澎湃新闻
整理 | 傅文婧
编辑 | 刘科
责编 | 傅文婧